temout/ling

/LING

Update: February 24, 2023 The new version of Termout.org is now online, so this web site is now obsolete and will soon be dismantled.

Lista de candidatos sometidos a examen:
1) conjunto de datos (*)
(*) Términos presentes en el nuestro glosario de lingüística

1) Candidate: conjunto de datos

Is in goldstandard

1
paper corpusSignosTxtLongLines132 - : Por su parte, Biber ([63]1988) propone la idea de dimensión, desde un enfoque multirasgos (MR) y multidimensiones (MD) y basado en procedimientos estadísticos multivariados. La dimensión es una interpretación funcional y comunicativa que emerge de un análisis factorial a partir de un conjunto de datos lingüísticos, es decir, a partir de un conjunto de rasgos lingüísticos y un conjunto de textos representativos de ciertos registros, se construye una matriz de ocurrencias ([64]Biber, Conrad & Reppen, 1998 ). Esta matriz es posteriormente sometida a un procesamiento estadístico y se obtiene un conjunto de factores. Los factores son producto del análisis factorial y muestran aquellos rasgos coocurrentes estadísticamente y que se agrupan significativamente. Basado en este dato de coocurrencias estadísticas, Biber ([65]1988) postula que la interpretación funcional de esos rasgos puede caracterizar un registro específico.

2
paper corpusSignosTxtLongLines327 - : Nuestro corpus se enmarca en los ECD. Como tal, retomamos un conjunto de datos auténticos, cumpliendo así los postulados que señalan que para estos estudios el corpus debe proceder de las formas naturales del uso de la lengua, esto es, de la situación comunicativa misma:

3
paper corpusSignosTxtLongLines374 - : - Por su parte, la tarea de clasificación aplica el modelo sobre un conjunto de datos de prueba, de los cuales el sistema desconoce su categoría . En general, se comparan los resultados obtenidos con un gold standard (evaluación de un experto) para conocer el desempeño de dicho sistema de clasificación, los resultados obtenidos son reportados con las medidas de evaluación de precisión, recall y F-score.

4
paper corpusSignosTxtLongLines374 - : Se crea una bolsa de palabras ligada a cada una de las tres clases existentes, para el caso de las bolsas de la clase sindrómica y ‘ambas’, el conjunto de palabras asociadas, está compuesta por síntomas, sindrómes, enfermedades y genes, para el caso de la clase no sindrómica, el conjunto de datos es el mismo, con excepción del síndrome ya que ningún gen de los que pertenece a esta clase, tiene relación con esa clase . Cuando se tienen las bolsas de palabras, el siguiente paso es la clasificación de los documentos. Primeramente se limpia el documento y las palabras consideradas definitorias del contenido del documento, se almacenan en un repositorio. Cuando se concluye la lectura del documento objeto, se contrastan las palabras almacenadas del documento objeto con aquellas que se encuentran en las tres bolsas de palabras referentes a la ontología, se contabilizan los términos que tienen en común, para posteriormente decidir a qué clase pertenece.

5
paper corpusSignosTxtLongLines555 - : Para evaluar la representación, se utilizaron cuatro conjuntos de datos textuales multietiquetados conocidos: REUTERS-21578, OHSUMED, ENRON y MEDICAL. Para REUTERS-21578, que es un conjunto de textos de noticias, se consideró un subconjunto modificado que se propuso en ^[85]Read et al. (2011) con el fin de poder obtener medidas de desempeño comparativas. El conjunto de datos OHSUMED es una partición de la base de datos MEDLINE, que es una biblioteca de artículos científicos publicados en revistas médicas . La colección OHSUMED también se ha reducido de 50.216 a 13.929 textos. Este subconjunto contiene las 10 categorías más representativas de las 23 categorías originales. El conjunto de datos de Enron es una colección de textos creados por el proyecto CALO (Cognitive Assistant that Learns and Organizes), que contiene 1.702 mensajes de correo electrónico y 52 categorías. Por último, el conjunto de datos Medical fue creado por la Computational Medicine Center, 2007 a propósito del Language

Evaluando al candidato conjunto de datos:

1) palabras: 6 (*)
2) documento: 4
3) bolsas: 3
4) clasificación: 3 (*)
5) rasgos: 3
6) ohsumed: 3
7) textos: 3 (*)
8) biber: 3

conjunto de datos
Lengua: spa
Frec: 26
Docs: 15
Nombre propio: / 26 = 0%
Coocurrencias con glosario: 3
Puntaje: 4.018 = (3 + (1+4.85798099512757) / (1+4.75488750216347)));
Candidato aceptado

Referencias bibliográficas encontradas sobre cada término

(Que existan referencias dedicadas a un término es también indicio de terminologicidad.)

conjunto de datos

: Processing Challenge, 2007, contiene 978 textos clínicos de informes de radiología y considera 45 categorías de códigos médicos. La [86]Tabla 5 presenta las características del conjunto de datos pre-procesados.